R描述性和探索性分析与可视化的工具包介绍
点亮小星星 科研路上我们一起前行
本期内容主要介绍4个用于描述性分析、探索性数据分析以及相应数据可视化的R包,这些工具包主要解决如下问题:
快速高效的形成格式化的描述性统计报告
数据框多变量之间关系的快速可视化
ggplot2图片快速参数调整(比如字体,背景颜色,只需用鼠标点击完成,不需要再写代码)
工具包1: Skiml
快速形成全面的描述性统计报告——工具包skimr
该工具包主要的功能为skim, 能够快速生成一个描述性统计报告(附带一个简略的分布直方图),比如我们以鸢尾花数据集为例,代码及效果如下:
skimr::skim(iris)
此外,也可以在数据框之后进一步添加需要进行分析的变量,如skim(iris,Petal.Length),效果如下:
其他功能具体见:
https://github.com/ropensci/skimr
工具包1: inspectdf & GGally
使用inspectdf 和GGally 初步检测数据框,并对数据框各个变量的关系进行初步可视化
同样以鸢尾花数据集为例:
首先使用inspectdf中的inspect_na检查缺失值的情况,代码如下
inspect_na(iris)
运行的结果如下:
接着可以使用inspect_cor检查各个变量之间的相关(区间估计)并进行可视化,代码和效果如下:
cor1 <- inspectdf::inspect_cor(iris)
cor1
inspectdf::show_plot(cor1)
除此之外,也可以使用GGally中的ggpairs功能形成更全面的可视化效果,代码和效果如下图:
GGally::ggpairs(iris)
可以看出,ggpairs命令将所有连续性变量和分类变量的关系汇总在一个矩阵图中。不仅直观的反应出了各个变量的分布,也显示了各个变量之间的关系。关于上述两个包的详情,可参考如下链接:
Inspectdf: https://github.com/alastairrushworth/inspectdf
GGally:
https://ggobi.github.io/ggally/index.html
工具包4: ggThemeAssist
最后,本期压轴的工具包是ggThemeAssist。该工具包能够使用GUI界面对ggplot生成的图片进行处理,并且能够即时生成调整后的图片,因此在调整ggplot图片的参数时,就不需要一直写代码调试了,能够节省很多时间,让ggplot作图更加高效。这里依然使用鸢尾花数据集做演示,其代码和效果如下:
library(ggplot2)
library(ggThemeAssist)
p1<- ggplot(aes(x=Petal.Length,y=Sepal.Length,color=Species),data=iris)+
geom_point()
首先根据鸢尾花数据集中的分类变量分别以花瓣长度为x轴,花萼长度为y轴做点图,效果如下:
然后使用ggThemeAssist中的ggThemeAssistGadget()对ggplot对象p1进行调试(比如添加一个标题,并且居中)代码和效果如下:
ggThemeAssistGadget(p1)
之后就会看到一个GUI界面,ggplot画的图片出现在正上方,如下图:
点击下方的Title and label图标即可对标题进行修改,如下图:
可以看到修改的内容即时显示在了GUI界面上。之后,点击Done 完成修改。可以看到原来R中画图的代码也自动修改完成了,如下图:
再次运行R中的画图代码,将得到一样的结果。
关于ggThemeAssist详情可参考:https://github.com/calligross/ggthemeassist
本期作者:覃恺洋
编辑:杨伟文
我们下期再见~
热门推荐:
R语言: 使用ProjectTemplate包标准化和项目化数据分析的流程
更多热门文章等你发现!